深度学习的繁荣有助于场景文本检测的快速进步。在所有具有卷积网络的方法中,基于细分的方法在检测任意形状和极端纵横比的文本实例方面的优越性,引起了广泛的关注。但是,自下而上的方法仅限于其分割模型的性能。在本文中,我们提出了DPTNET(双路线变压器网络),这是一种简单而有效的体系结构,可为场景文本检测任务建模全局和本地信息。我们进一步提出了一种平行的设计,将卷积网络与强大的自我发场机制相结合,以在注意力路径和卷积路径之间提供互补的线索。此外,开发了两个路径上的双向相互作用模块,以提供通道和空间尺寸的互补线索。我们还通过向其添加额外的多头注意力层来升级集中操作。我们的DPTNET在MSRA-TD500数据集上实现了最先进的结果,并就检测准确性和速度提供了其他标准基准的竞争结果。
translated by 谷歌翻译
为了应对人类检测对标签数据和隐私问题的不断增长的需求,合成数据已被用作替代品,并在人类检测和跟踪任务中显示出令人鼓舞的结果。我们参加了第七届基准测试多目标跟踪(BMTT)的研讨会,主题是“合成数据可以带我们多远”?我们的解决方案Pietrack是根据合成数据开发的,而无需使用任何预训练的权重。我们提出了一种自我监督的域适应方法,该方法能够减轻合成(例如Motsynth)和真实数据(例如Mot17)之间的域移位问题,而无需涉及额外的人类标签。通过利用拟议的多尺度合奏推理,我们在MOT17测试集中获得了58.7的最终HOTA得分,在挑战中排名第三。
translated by 谷歌翻译
强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化,以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是,这些扰动破坏了图像上下文并引入了不自然的边界,这对语义分割是有害的。此外,广泛采用的半监督学习框架,即均值老师,遭受了绩效限制,因为学生模型最终会收敛于教师模型。在本文中,首先,我们提出了一个友好的可区分几何扭曲,以进行无监督的数据增强。其次,提出了一个新颖的对抗双重学生框架,以从以下两个方面从以下两个方面改善均等老师:(1)双重学生模型是独立学习的,除了稳定约束以鼓励利用模型多样性; (2)对对抗性训练计划适用于学生,并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是,与完全监督相比,我们的解决方案仅使用Pascal VOC2012上的12.5%注释数据获得了73.4%的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。
translated by 谷歌翻译
在大数据的时代,通过单数值分解的图像近似近似。但是,奇异值分解(SVD)仅用于订单两个数据,即矩阵。有必要将高阶输入变成矩阵或将其分解为一系列订单两个切片,以解决具有SVD的多光谱图像和视频等高阶数据。高阶奇异值分解(HOSVD)扩展了SVD,可以使用一些排名一的组件的总和近似高阶数据。我们考虑将HOSVD推广到有限维度的代数上的问题。该代数(称为T-Algebra)概括了复数。代数的元素(称为t-scalars)是固定大小的复数阵列。可以将矩阵和张量概括在T量标准上,然后扩展许多规范矩阵和张量算法,包括HOSVD,以获得更高的性能版本。 HOSVD的概括称为THOSVD。交替的算法可以进一步提高其近似多路数据的性能。 THOSVD还统一了广泛的主要组件分析算法。为了利用T-scalars进行近似图像利用广义算法的潜力,我们使用像素邻域策略将每个像素转换为“更深入”的T-Scalar。公开图像的实验表明,T型量表的广义算法,即ThoSVD,与其规范对应物进行了优惠。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译
机器学习技术的兴起激发了电子设计自动化(EDA)中应用的繁荣,有助于提高芯片设计中的自动化程度。然而,手动制作的机器学习模型需要广泛的人类专业知识和巨大的工程努力。在这项工作中,我们利用神经结构搜索(NAS)来自动开发高质量的神经架构进行可排卵预测,这有助于引导细胞放置到可路由解决方案。我们的搜索方法支持各种操作和高度灵活的连接,导致架构与所有先前的人工制作模型显着不同。大型数据集上的实验结果表明,我们的自动生成神经架构明显优于多个代表手动制作的解决方案。与手动制作型号的最佳案例相比,NAS产生的模型达到了5.85%的kendall的$ \ tau $,以预测DRC违规的网数和ROC曲线(ROC-AUC)在DRC热点检测下的2.12%面积。此外,与人工制作的模型相比,易于花数周开发,我们的高效NAS方法只需0.3天即可完成整个自动搜索过程。
translated by 谷歌翻译
In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress tests with synthetic data. Basically, we design and synthesize a wide range of potential errors and check whether they result in a commensurate drop in the metric scores. We examine a range of recently proposed evaluation metrics based on pretrained language models, for the tasks of open-ended generation, translation, and summarization. Our experiments reveal interesting insensitivities, biases, or even loopholes in existing metrics. For example, we find that BERTScore ignores truncation errors in summarization, and MAUVE (built on top of GPT-2) is insensitive to errors at the beginning of generations. Further, we investigate the reasons behind these blind spots and suggest practical workarounds for a more reliable evaluation of text generation.
translated by 谷歌翻译
近年来,由于SR数据集的开发和相应的实际SR方法,真实的图像超分辨率(SR)已取得了令人鼓舞的结果。相比之下,真实视频SR领域落后,尤其是对于真实的原始视频。考虑到原始图像SR优于SRGB图像SR,我们构建了一个真实世界的原始视频SR(Real-Rawvsr)数据集,并提出了相应的SR方法。我们利用两个DSLR摄像机和一个梁切口来同时捕获具有2倍,3倍和4倍大型的高分辨率(LR)和高分辨率(HR)原始视频。我们的数据集中有450对视频对,场景从室内到室外各不相同,包括相机和对象运动在内的动作。据我们所知,这是第一个现实世界的RAW VSR数据集。由于原始视频的特征是拜耳模式,因此我们提出了一个两分支网络,该网络既涉及包装的RGGB序列和原始的拜耳模式序列,又涉及两个分支,并且两个分支相互互补。经过提出的共对象,相互作用,融合和重建模块后,我们生成了相应的HR SRGB序列。实验结果表明,所提出的方法优于原始或SRGB输入的基准实体和合成视频SR方法。我们的代码和数据集可在https://github.com/zmzhang1998/real-rawvsr上找到。
translated by 谷歌翻译
机器人的感知目前处于在有效的潜在空间中运行的现代方法与数学建立的经典方法之间的跨道路,并提供了可解释的,可信赖的结果。在本文中,我们引入了卷积的贝叶斯内核推理(Convbki)层,该层在可分离的卷积层中明确执行贝叶斯推断,以同时提高效率,同时保持可靠性。我们将层应用于3D语义映射的任务,在该任务中,我们可以实时学习激光雷达传感器信息的语义几何概率分布。我们根据KITTI数据集的最新语义映射算法评估我们的网络,并通过类似的语义结果证明了延迟的提高。
translated by 谷歌翻译
本文提出了一种新的3D形状生成方法,从而在小波域中的连续隐式表示上实现了直接生成建模。具体而言,我们提出了一个带有一对粗糙和细节系数的紧凑型小波表示,通过截短的签名距离函数和多尺度的生物联盟波波隐式表示3D形状,并制定了一对神经网络:基于生成器基于扩散模型的生成器以粗糙系数的形式产生不同的形状;以及一个细节预测因子,以进一步生成兼容的细节系数量,以丰富具有精细结构和细节的生成形状。定量和定性实验结果都表现出我们的方法在产生具有复杂拓扑和结构,干净表面和细节的多样化和高质量形状方面的优势,超过了最先进的模型的3D生成能力。
translated by 谷歌翻译